查看原文
其他

谷歌又发大招:首款自研 Arm CPU、Gemini 1.5 Pro 公测、Imagen 2.0 对决 Sora

Founder Park 2024-04-20

The following article is from 新智元 Author 新智元

4月9日,在 Google Cloud Next 2024大会上,谷歌发布了一系列模型、硬件产品:

  • Gemini 1.5 Pro 加入本地音频理解功能,同时开放公测

  • 升级「视频版」Imagen 2.0,下场 AI 视频模型大混战

  • 首款自研 Arm 处理器 Axion

  • 代码生成新模型 CodeGemma

此外,谷歌的AI超算平台也进行了一系列重大升级——最强TPU v5p上线、升级软件存储,以及更灵活的消费模式,都让谷歌云在AI领域的竞争力进一步提升。

Scaling Law 已成为大模型进化的「不二法门」。

大模型参数量越大、数据集规模越大、算力消耗越大,性能就越好。性能越好,越受欢迎,业务拓展与运营的成本就越高。

相比较海外的大模型大厂,国内的大模型公司会面临更严峻的算力问题,资金问题、显卡限购的问题,以至于有不少人质疑,中国大模型到底有没有 Scaling Law?

今晚 8 点,无问芯穹联合创始人 & CEO 夏立雪将做客 Founder Park 视频号直播间,与极客公园创始人 & 总裁张鹏聊聊中国大模型的 Scaling Law 难题。


01

Gemini 1.5 Pro:原生多模态、超长文本

传说中的谷歌最强杀器Gemini 1.5 Pro,已经在Vertex AI上开放公测了!

开发者们终于可以亲自体验到,前所未有的最长上下文窗口是什么感觉。

Gemini 1.5 Pro的100万token,比Claude 3中最大的200K上下文,直接高出了五倍!而GPT-4 Turbo,上下文也只有128K。

当然,超长上下文在无缝处理输入信息方面,仍然有一定的局限性。

但无论如何,它让对大量数据进行本机多模态推理成为可能。从此,多海量的数据,都可以进行全面、多角度的分析。

自然而然地,我们可以正式用Gemini 1.5 Pro开发新的用例了。比如AI驱动的客户服务智能体和在线学术导师,分析复杂的金融文件,发现文档中的遗漏,查询整个代码库,或者自然语言数据集。

现在,已经有无数企业用Gemini 1.5 Pro真实地改变了自己的工作流。

比如,软件供应商思爱普用它来为客户提供与业务相关的AI解决方案;日本广播公司TBS用它实现了大型媒体档案的自动元数据标注,极大提高了资料搜索的效率;初创公司Replit,则用它更高效、更快、更准确地生成、解释和转换代码。

加入音频处理能力

不仅如此,Gemini 1.5 Pro现在还增加了音频功能。

它能处理音频流,包括语音和视频中的音频。

这直接就无缝打破了文本、图像、音频和视频的边界,一键开启多模态文件之间的无缝分析。

在财报电话会议中,一个模型就能对多种媒介进行转录、搜索、分析、提问了。


02

Imagen 2.0支持视频生成:4秒24帧640p

并且,这次谷歌也下场开卷AI模型了!
AI生图工具Imagen,现在可以生成视频了。
只用文本提示,Imagen就能创作出实时的动态图像,帧率为每秒24帧,分辨率达到360x640像素,持续时间为4秒。
谷歌表示,Imagen在处理自然景观、食物图像和动物等主题时,表现尤为出色。
它不仅能够创造出一系列多样的摄影角度和动作,还能确保整个序列的视觉一致性。
同时,这些动态图像也配备了安全过滤和数字水印技术。

图像编辑

并且,谷歌对Imagen 2.0也升级了图像编辑功能,增加了图像修复、扩展、数字水印功能。
想把图中这个男人去掉?一键圈出,他就没了!并且模型还自动补全了山上的背景。
想让远处的山高一点?Imagen 2.0也能轻松做到。
另外,它还可以帮我们扩大图片边缘,获得更广阔的视角。
而数字水印功能,由Google DeepMind的SynthID强力驱动。
这样,用户为就可以图片和视频生成隐形水印,并且验证它们是否由Imagen所生成。

03

代码模型CodeGemma发布,核心团队华人占6成

最新发布轻量级代码生成模型CodeGemma,采用的是与Gemma系列相同的架构,并进一步在超过5000亿个代码Token上进行了训练。
目前, CodeGemma已经全系加入Vertex AI。

论文地址:https://storage.googleapis.com/deepmind-media/gemma/codegemma_report.pdf
具体来说,CodeGemma共有三个模型检查点(Checkpoint):
CodeGemma 7B的预训练版本(PT)和指令微调版本(IT)在理解自然语言方面表现出色,具有出众的数学推理能力,并且在代码生成能力上与其他开源模型不相上下。
CodeGemma 2B则是一个SOTA的代码补全模型,可以进行快速的代码填充和开放式生成。

预训练数据

CodeGemma的训练数据包括了来自网络文档、数学和代码的5000亿个Token(主要是英文)。
2B规模的模型完全使用代码进行训练,而7B规模的模型则采用了80%编程代码外加20%自然语言的方式。
为了确保数据的质量,谷歌对数据集进行了去重和过滤,移除了可能影响评估的代码样本和一些个人或敏感信息。
此外,谷歌还对CodeGemma模型的预训练采用了一种改进的中间填空(Fill-in-the-Middle, FIM)方法,以此来提升了模型的训练效果。
具体可以分为两种模式:PSM(前缀-后缀-中间)和SPM(后缀-前缀-中间)。

指令微调

通过让模型接触各种数学问题,可以提升它在逻辑推理和解决问题方面的能力,这对编写代码来说是非常重要的。
为此,谷歌选用了多个主流的数学数据集进行监督微调,包括:MATH、GSM8k、MathQA,以及合成数学数据。
在代码方面,谷歌采用了合成代码指令的方法来创建数据集,用于后续的监督微调(SFT)和基于人类反馈的强化学习(RLHF)之中。
为了确保生成的代码指令数据既有用又准确,谷歌采取了以下方法:
- 示例生成:根据OSS-Instruct的方法,制作一系列独立的问题与答案对;
- 后期过滤:利用大语言模型来筛选这些问题与答案对,评估它们的实用性和准确性。

代码补全

如表2所示,CodeGemma 2B在代码补全场景下展现出了卓越的性能,尤其是在低延迟的表现上。
其中,推理速度更是比不少模型快了有2倍之多。

Python

HumanEval和Mostly Basic Python Problems的评估结果如表3所示。
与Gemma基础模型相比,CodeGemma在编程领域的任务上表现明显更强。

多种编程语言

BabelCode通常用来评估模型在多种编程语言中的代码生成性能,结果如表4所示。

语言处理能力

图3展示了多个领域的性能评估结果,包括问答、自然语言处理以及数学推理。
可以看到,CodeGemma同样有着Gemma基础模型的自然语言处理能力,其PT和IT版本在性能上均优于Mistral 7B和Llama2 13B——分别领先了7.2%和19.1%。
进一步地,如表5所示,CodeGemma在数学推理方面,相比同等规模的模型有着更出色的表现。


04

自研 Arm 架构 CPU Axion

此次Next大会上,谷歌还正式宣布,将自研首款基于Arm的CPU。
据称这款CPU处理器Axion,将提供比英特尔CPU更好的性能和能源的效率,其中性能提高50%,能源效率提高60%。
据悉,比起目前基于Arm的最快通用芯片,Axion的性能还要高出30%。
凭着这个新武器,谷歌也在AI军备竞赛中,正式向微软和亚马逊宣战!
新CPU Axion,显然是谷歌跟随亚马逊AWS和微软Azure的动作——它也想自研处理器了。
Axion将帮助谷歌提高通用工作负载的性能,比如开源数据库、Web和应用程序服务器、内存缓存、数据分析引擎、媒体处理和AI训练。
由此,谷歌在开发新的计算资源方面,又向前迈进了一步。在今年晚些时候,Axion就可用于云服务了。

AI军备竞赛加快,CPU重要性凸显

对于AI军备竞赛来说,像Axion这样的CPU至关重要,因为它能提升训练AI模型所需的算力。
要训练复杂的AI模型,就需要处理大型数据集,而CPU有助于更快地运行这些数据集。
要说此举的最大的好处,那无疑就是——省钱!
众所周知,购买AI芯片的成本惊人,英伟达的Backwell芯片,预计售价在3万美元到4万美元之间。
现在,Axion芯片已经在为YouTube 广告、Google Earth引擎提供加持了。
而且,很快就可以在谷歌计算引擎、谷歌Kubernetes引擎、Dataproc、Dataflow、Cloud Batch等云服务中使用。
不仅如此,原本在使用Arm的客户,无需重新架构或者重写应用程序就可以轻松地迁移到Axion上来。

05

TPU v5p上线,与英伟达合作加速AI开发

在此次Google Cloud Next 2024年会上,谷歌宣布:对自家超算平台进行大规模升级!
升级列表中的第一位,就是谷歌云的张量处理单元TPU v5p了。如今,该定制芯片全面向云客户开放。
谷歌的TPU,一直被用作英伟达GPU的替代品,用于AI加速任务。
作为下一代加速器,TPU v5p专门用于训练一些最大、最苛刻的生成式AI模型。其中,单个TPU v5p pod包含8,960个芯片,是TPU v4 pod芯片数量的两倍之多。
另外,谷歌云还将和英伟达合作加速AI开发——推出配备H100的全新A3 Mega VM虚拟机,单芯片搭载高达800亿个晶体管。
而且谷歌云还会将英伟达最新核弹Blackwell整合进产品中,增强对高性能计算和AI工作负载的支持,尤其是以B200和GB200提供支持的虚拟机形式。
其中,B200专为「最苛刻的AI、数据分析和HPC工作负载而设计」。
而配备液冷的GB200,将为万亿参数模型的实时LLM推理和大规模训练提供算力。
虽然现在万亿参数的模型还不多(少量几个选手是SambaNova和谷歌的Switch Transformer),但英伟达和Cerebras都在冲万亿参数模型硬件了。
显然,他们已经预见到,AI模型的规模还会迅速扩大。

软件

在软件方面,谷歌云推出了JetStream,这是一款针对LLM的吞吐量和内存优化了的推理引擎。
这个新工具可以提高开源模型的单位美元性能,并与JAX和PyTorch/XLA框架兼容,从而降本增效。

存储大战

此外,谷歌的存储解决方案也在不断升级——不仅加速了AI训练和微调,优化了GPU和TPU的使用,还提高了能效和成本效益。
此次,谷歌推出的Hyperdisk ML,显著缩短了模型加载时间,提高了吞吐量,并对AI推理和服务工作负载进行了优化。
不仅支持每个存储卷承载2,500个实例,而且还提供了高达1.2TiB/s的数据吞吐量,性能直接超越微软和AWS。
已发布的Cloud Storage FUSE,可将基础模型的训练吞吐量提高2.9倍,性能提高2.2倍。
高性能并行文件系统Parallelstore可将训练速度提高到3.9倍,并将训练吞吐量提高到3.7倍。
而专为AI模型量身定制的Filestore系统,允许在集群中的所有GPU和TPU之间同时访问数据,将训练时间缩短56%。
总之,此次谷歌超算的大规模更新表明,谷歌在努力为客户带来实际的商业利益,创建无缝集成、高效可扩展的AI训练和推理环境。

06

Workspace 上新:Google Vids 发布、Gemini 加入 Chat

Google Vids 是一款 AI 视频创建工具,是 Google Workspace 中添加的新功能。

谷歌表示,借助 Google Vids,用户可以与文档和表格等其他 Workspace 工具一起制作视频,并且可与同事实时协作。

除了 Vids,Google Workspace 在 Cloud Next 2024 上获得了许多新功能和 Gemini 功能。

Google 正在对手机版 Gmail 的「帮我写」功能进行升级,新增语音引导和输入功能,让你在外出时也能轻松地发送邮件。此外,还有一个「即时润色」特性,可以一键将你的草稿笔记变为一封格式完整的邮件。Google 今天透露,在 Docs 或 Gmail 使用「帮我写」功能的职场用户中,有 70% 的人最终会选择采纳 Gemini(该功能的提供者)的建议。

Gemini 功能即将被引入 Google Chat,它能够帮助总结聊天内容并回答相关问题。在网页版中,Gemini 会以一个侧边栏的形式呈现。此外,Chat 计划在今年稍晚时候推出消息自动翻译的功能,而 Google 也在提升其社群空间的规模,将成员上限扩展至 500,000 人。

Google Meet 即将推出「为我翻译」功能,它能自动检测并翻译 52 种新语言的字幕,使其支持的语言总数达到 69 种,涵盖 4,600 种不同的语言组合。与此同时,「为我做笔记」功能目前处于预览阶段。在 2024 年的 Cloud Next 大会上,Google 透露,Gemini 功能将作为一项新的 AI 会议和消息扩展工具,面向企业用户推出,定价为每位用户每月 10 美元。


参考资料:

https://cloud.google.com/blog/products/ai-machine-learning/google-cloud-gemini-image-2-and-mlops-updates

https://storage.googleapis.com/deepmind-media/gemma/codegemma_report.pdf

https://www.businessinsider.com/google-ramped-up-ai-competition-against-microsoft-amazon-2024-4

https://www.theverge.com/2024/4/9/24125074/google-axion-arm-cpu-ai-chips-cloud-server-data-center

https://blogs.nvidia.com/blog/nvidia-google-cloud-ai-development/

https://venturebeat.com/ai/google-upgrades-its-ai-hypercomputer-for-enterprise-use-at-cloud-next/

如果你关注大模型领域,欢迎扫码加入我们的大模型交流群,来一起探讨大模型时代的共识和认知,跟上大模型时代的这股浪潮。



更多阅读

什么样的 AGI 创业者更容易获得资本青睐?

Q1 AGI 融资万字盘点:单笔最高30亿、PMF海外已跑通、资本军备竞赛已开启

明星 AI 产品 Perplexity 宣布加入广告,AI 搜索的下一步只能是「谷歌」吗?

企业内部如何更好落地大模型?我们走访了 10+ 先行者


转载原创文章请添加微信:geekparker
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存